5 research outputs found

    Leveraging Expert Models for Training Deep Neural Networks in Scarce Data Domains: Application to Offline Handwritten Signature Verification

    Full text link
    This paper introduces a novel approach to leverage the knowledge of existing expert models for training new Convolutional Neural Networks, on domains where task-specific data are limited or unavailable. The presented scheme is applied in offline handwritten signature verification (OffSV) which, akin to other biometric applications, suffers from inherent data limitations due to regulatory restrictions. The proposed Student-Teacher (S-T) configuration utilizes feature-based knowledge distillation (FKD), combining graph-based similarity for local activations with global similarity measures to supervise student's training, using only handwritten text data. Remarkably, the models trained using this technique exhibit comparable, if not superior, performance to the teacher model across three popular signature datasets. More importantly, these results are attained without employing any signatures during the feature extraction training process. This study demonstrates the efficacy of leveraging existing expert models to overcome data scarcity challenges in OffSV and potentially other related domains

    Νευρωνικά δίκτυα: στρατηγικές βαθιάς εκμάθησης για προβλήματα με περιορισμένο πλήθος δεδομένων

    No full text
    Small sample size learning (SSSL) problem arises when the available training data are limited, making it challenging for machine learning models to capture meaningful patterns and provide accurate predictions. In computer vision applications, constraints on training data are common due to data collection difficulties or high annotation costs. This PhD thesis focuses on exploring deep learning strategies tailored for addressing the SSSL problem, with a specific emphasis on developing efficient training methods for convolutional neural networks (CNNs) when only a limited amount of data are available. Different approaches exist based on the space being considered: data augmentation techniques in the input space, approximating target functions with regularization and pretraining in the model space and encoding relationships between data points within a latent feature space. In this dissertation we propose methods that address SSSL in one or multiple spaces simultaneously. The applications studied in this thesis include biometric verification in the offline signature verification (OffSV) problem, which currently lacks a large available offline signature dataset, and the biomedical problem of human epithelial type-2 (Hep-2) cell classification through indirect immunofluorescence (IIF) microscopy images, involving a challenging annotation process. Initially, shallow representation learning approaches, utilizing traditional computer vision techniques, are studied as a baseline scenario of approaching SSSL. This enabled us to gain valuable insights into the intrinsic characteristics of the studied problems and enhanced the interpretability of the results. Subsequently, a hybrid scheme combining hand-crafted descriptors with a CNN model is proposed. Hand crafted features can create representations with desired invariance characteristics, hence when used as input to a CNN, can provide a more effective starting point for training with limited samples size. A different path to address the SSSL problem studied in this dissertation involves utilizing external data from a similar domain with data abundance. These data can serve as information carriers within a sophisticated training procedure, aimed at enhancing performance in the target problem that suffers data limitations. Such methods were developed in the context of OffSV, where auxiliary handwritten text data were utilized during the training of CNNs in the writer identification task, managing to learn effective encodings of signature images by employing domain adaptation techniques, achieving comparable performance or even surpassing models trained on thousands of signature images. The first such approach proposed in this thesis is explicit domain adaptation, which encompasses metric learning using an additional transformation layer trained via contrastive loss, used to transform the outputs of a pretrained CNN model. The second proposed technique is implicit domain adaptation, implemented through teacher supervision in the Feature-based Knowledge Distillation (FKD) scheme. This method leverages both local and global information from intermediate representations of the teacher to facilitate efficient knowledge transfer. Results demonstrate that the proposed approaches effectively address the SSSL problem in the OffSV domain, operating in either the feature space or the model space, by utilizing auxiliary data in the input space to overcome the challenges posed by the data limitations.Το πρόβλημα εκμάθησης με μικρό πλήθος δεδομένων προκύπτει όταν τα διαθέσιμα δεδομένα εκπαίδευσης είναι περιορισμένα, κάτι που καθιστά δύσκολη την αποτελεσματική εκπαίδευση μοντέλων μηχανικής εκμάθησης και την πρόβλεψη ακριβών αποτελεσμάτων. Η διαθεσιμότητα μεγάλου όγκου δεδομένων συχνά αποτελεί πρόκληση, τόσο σε επίπεδο αποθήκευσης και επεξεργασίας, όσο και σε επίπεδο συλλογής, ελέγχου και χειρωνακτικής επισήμανσης των δεδομένων, ιδιαίτερα σε προβλήματα επιβλεπόμενης εκμάθησης. Η παρούσα Διδακτορική Διατριβή εστιάζει στην ανάπτυξη αποδοτικών και πρωτοποριακών τεχνικών εκμάθησης που καθιστούν εφικτή την αξιοποίηση τεχνικών αιχμής από το χώρο των βαθιών Συνελικτικών Νευρωνικών Δικτύων (ΣΝΔ) σε προβλήματα με εγγενείς περιορισμούς στα διαθέσιμα δεδομένα εκπαίδευσης, όπως π.χ. είναι οι βιομετρικές και βιο-ιατρικές εφαρμογές. Μια απλή ταξινόμηση των προσεγγίσεων για την επίλυση του προβλήματος εκμάθησης με μικρό πλήθος δεδομένων μπορεί να πραγματοποιηθεί με βάση το πεδίο που εφαρμόζονται οι διάφορες τεχνικές, αξιοποιώντας το χώρο εισόδου των δεδομένων με κυρίαρχες τις μεθόδους επαύξησης των δεδομένων, το πεδίο του μοντέλου αναζητώντας τη βέλτιστη συνάρτηση για την αποδοτική κωδικοποίηση της πληροφορίας, και την ανάπτυξη σχέσεων (αν)ομοιότητας στα εξαγόμενα αποτελέσματα του μοντέλου. Αρχικά μελετώνται μοντέλα εκμάθησης με χρήση ρηχών μεθόδων αναπαράστασης εικόνων, χρησιμοποιώντας κλασσικές τεχνικές υπολογιστικής όρασης ως βάση αναφοράς στο πρόβλημα με μικρό πλήθος δεδομένων. Αυτό είναι βοηθητικό για την κατανόηση των χαρακτηριστικών των σημάτων που μελετώνται αλλά και την καλύτερη εξήγηση των αποτελεσμάτων. Στη συνέχεια, προτείνεται μια υβριδική μέθοδος που συνδυάζει κλασσικούς περιγραφείς εικόνων με ένα ΣΝΔ. Ο κλασσικός τρόπος κωδικοποίησης της πληροφορίας εφοδιάζει τις προκύπτουσες αναπαραστάσεις της εικόνας με επιθυμητά χαρακτηριστικά, και όταν χρησιμοποιούνται ως είσοδος σε ένα ΣΝΔ, μπορούν να παρέχουν ένα πιο αποτελεσματικό σημείο εκκίνησης για την εκπαίδευση του δικτύου με περιορισμένο αριθμό δειγμάτων. Σε μια διαφορετική κατεύθυνση αντιμετώπισης του προβλήματος εκμάθησης με μικρό πλήθος δεδομένων, αξιοποιήθηκε η χρήση εξωτερικών δεδομένων από έναν παρόμοιο πρόβλημα με πληθώρα δεδομένων. Αυτά τα δεδομένα εξάχθηκαν έτσι ώστε να εξυπηρετούν ως φορείς πληροφορίας μια ειδικά σχεδιασμένη διαδικασία εκπαίδευσης, με στόχο να βελτιωθεί η απόδοση στο πρόβλημα που υποφέρει από περιορισμούς δεδομένων. Σε αυτή την περίπτωση, η αποτελεσματική προσαρμογή των δύο προβλημάτων, του προβλήματος με επάρκεια δεδομένων και του προβλήματος ενδιαφέροντος με περιορισμένα δεδομένα, πραγματοποιείται σχεδιάζοντας τη διαδικασία εκπαίδευσης τόσο άμεσα με την εκμάθηση αποστάσεων μέσω ενός πρόσθετου επιπέδου μετασχηματισμού που χρησιμοποιείται για να μετασχηματίσει τις εξόδους ενός προ-εκπαιδευμένου μοντέλου ΣΝΔ στη βάση της ομοιότητας των σημάτων που μελετώνται όσο και έμμεσα μέσω ενός σχήματος απόσταξης γνώσης μεταξύ δύο ΣΝΔ, όπου το ένα δίκτυο έχει το ρόλο του μαθητευόμενου και το άλλο του επιβλέποντος, σχηματίζοντας καινοτόμες συναρτήσεις ομοιότητας μεταξύ των ενδιάμεσων αναπαραστάσεων των δύο μοντέλων για την αποτελεσματική μεταφορά της πληροφορίας από το δίκτυο επιβλέποντα κατά τη διάρκεια της εκπαίδευσης του δικτύου μαθητευόμενου. Επομένως, στα πλαίσια αυτής της διδακτορικής διατριβής, σχεδιάστηκαν πρωτοποριακές προσεγγίσεις επίλυσης του προβλήματος εκμάθησης με περιορισμένα δεδομένα αναπτύσσοντας τεχνικές σε πολλαπλά πεδία του προβλήματος αλλά και δοκιμάζοντας διαφορετικές εφαρμογές ενδιαφέροντος

    Subscripto multiplex: A Riemannian symmetric positive definite strategy for offline signature verification

    No full text
    International audienceThe human handwritten signature is considered to be a significant biometric trait. In the case of offline signatures, the problem is addressed as an image recognition task. On the other hand, the visual representation of symmetric positive definitive matrices, usually by means of the covariance descriptor of the image feature maps, forms a specific Riemannian manifold with a widespread usage and a favorable performance in a plethora of applications. Surprisingly, no records of offlinesignature-verification-oriented research in the space of symmetric positive definitive matrix have been found up to now. In this work, we propose, for the first time in offline signature-verification literature, mapping of handwritten signature images in points of the tangent space of a connected symmetric positive definitive manifold for verification purposes. Furthermore, based on the principles of differential geometry, we address the notorious limited training problem of offline signature verification in this manifold by proposing two different feature augmentation methods. The efficiency of the proposed method is evaluated using three popular datasets of Western and Asian origin. Error rates against skilled and random forgery in both baselines as well augmentation scenarios are strong indicators of the informative and highly discriminative nature of symmetric positive definitive manifold oriented representation

    SIFT-CNN: When Convolutional Neural Networks Meet Dense SIFT Descriptors for Image and Sequence Classification

    No full text
    Despite the success of hand-crafted features in computer visioning for many years, nowadays, this has been replaced by end-to-end learnable features that are extracted from deep convolutional neural networks (CNNs). Whilst CNNs can learn robust features directly from image pixels, they require large amounts of samples and extreme augmentations. On the contrary, hand-crafted features, like SIFT, exhibit several interesting properties as they can provide local rotation invariance. In this work, a novel scheme combining the strengths of SIFT descriptors with CNNs, namely SIFT-CNN, is presented. Given a single-channel image, one SIFT descriptor is computed for every pixel, and thus, every pixel is represented as an M-dimensional histogram, which ultimately results in an M-channel image. Thus, the SIFT image is generated from the SIFT descriptors for all the pixels in a single-channel image, while at the same time, the original spatial size is preserved. Next, a CNN is trained to utilize these M-channel images as inputs by operating directly on the multiscale SIFT images with the regular convolution processes. Since these images incorporate spatial relations between the histograms of the SIFT descriptors, the CNN is guided to learn features from local gradient information of images that otherwise can be neglected. In this manner, the SIFT-CNN implicitly acquires a local rotation invariance property, which is desired for problems where local areas within the image can be rotated without affecting the overall classification result of the respective image. Some of these problems refer to indirect immunofluorescence (IIF) cell image classification, ground-based all-sky image-cloud classification and human lip-reading classification. The results for the popular datasets related to the three different aforementioned problems indicate that the proposed SIFT-CNN can improve the performance and surpasses the corresponding CNNs trained directly on pixel values in various challenging tasks due to its robustness in local rotations. Our findings highlight the importance of the input image representation in the overall efficiency of a data-driven system
    corecore